Journal de la Société Française de Statistique Comparison of sliced inverse regression approaches for underdetermined cases

نویسندگان

  • Raphaël Coudret
  • Benoit Liquet
  • Jérôme Saracco
چکیده

Among methods to analyze high-dimensional data, the sliced inverse regression (SIR) is of particular interest for non-linear relations between the dependent variable and some indices of the covariate. When the dimension of the covariate is greater than the number of observations, classical versions of SIR cannot be applied. Various upgrades were then proposed to tackle this issue such as RSIR and SR-SIR, to estimate the parameters of the underlying model and to select variables of interest. In this paper, we introduce two new estimation methods respectively based on the QZ algorithm and on the Moore-Penrose pseudo-inverse. We also describe a new selection procedure of the most relevant components of the covariate that relies on a proximity criterion between submodels and the initial one. These approaches are compared with RSIR and SR-SIR in a simulation study. Finally we applied SIR-QZ and the associated selection procedure to a genetic dataset in order to find eQTL. Résumé : Parmi les méthodes pour analyser des données de grande dimension, la régression inverse par tranches (sliced inverse regression ou SIR en anglais) est particulièrement intéressante si des relations non-linéaires existent entre la variable à expliquer et des combinaisons linéaires des prédicteurs (appelées indices). Lorsque la dimension de ces prédicteurs est plus grande que le nombre d’observations, les versions classiques de SIR ne peuvent plus être utilisées. Des améliorations diverses comme RSIR et SR-SIR (versions régularisées de SIR) ont été proposées dans la litérature pour résoudre ce problème, estimer les paramètres du modèle sous-jacent et enfin réaliser une sélection des prédicteurs les plus pertinents (en un certain sens). Dans cet article, nous introduisons deux nouvelles procédures d’estimation basées respectivement sur l’algorithme QZ et sur l’inverse généralisé de Moore-Penrose. Nous décrivons également une méthode qui repose sur un critère de proximité entre des sous-modèles et le modèle intial pour sélectionner les prédicteurs les plus pertinents. Ces approches sont ensuite comparées avec RSIR et SR-SIR par le biais de simulations. Enfin, nous illustrons, sur un jeu de données génetiques, l’intérêt de l’approche SIR-QZ proposée et de l’algorithme de sélection de prédicteurs associé pour trouver des eQTL.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Journal de la Société Française de Statistique Rank Tests for Elliptical Graphical Modeling Titre: Tests de Rangs pour les Modèles Graphiques Elliptiques

As a reaction to the restrictive Gaussian assumptions that are usually part of graphical models, Vogel and Fried [17] recently introduced elliptical graphical models, in which the vector of variables at hand is assumed to have an elliptical distribution. The present work introduces a class of rank tests in the context of elliptical graphical models. The proposed tests are valid under any ellipt...

متن کامل

Phyllodes Tumor of the Breast: 307 Treated Cases, the Largest Mexican Experience at a Single Breast Disease Institution

Background: Phyllodes tumor (PT) of the breast in Hispanic patients is more frequently reported with large tumors and with more borderline/malignant subtypes compared with other populations. The objective of this study was to describe characteristics of patients with PT and to identify differences among subtypes in a Mexican population.  <...

متن کامل

Four cases of Horse Tail Syndrome

Syndrome de la queue de cheval. A propos de 4 cas.  Les auteurs rapportent quatre observations cliniques concernat des malades dont les pre­miers symptomes se manifesterent par des al­gies longitemps considerees comme "sciatique·s".  L' etude neurologique de ces cas demontrait qu'en realite "les algies sciatiques" n'etaient que des signes mono ou pluri-radiculaires en rapport avec un syndrome...

متن کامل

Anaphylaxis Associated with Peanuts and Nuts in Late Mexican Adolescents: A Population Based Study

Background: There is a lack of information regarding anaphylaxis that is triggered by the peanut and nuts in countries with emerging economies. We aimed to identify the factors that are related to the prevalence of secondary anaphylaxis that results from ingesting peanuts or nuts. Materials and Methods: A cross-sectional, population-based study was conducted in which we applied a structured qu...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012